这项研究是有关阿拉伯历史文档的光学特征识别(OCR)的一系列研究的第二阶段,并研究了不同的建模程序如何与问题相互作用。第一项研究研究了变压器对我们定制的阿拉伯数据集的影响。首次研究的弊端之一是训练数据的规模,由于缺乏资源,我们的3000万张图像中仅15000张图像。另外,我们添加了一个图像增强层,时间和空间优化和后校正层,以帮助该模型预测正确的上下文。值得注意的是,我们提出了一种使用视觉变压器作为编码器的端到端文本识别方法,即BEIT和Vanilla Transformer作为解码器,消除了CNNs以进行特征提取并降低模型的复杂性。实验表明,我们的端到端模型优于卷积骨架。该模型的CER为4.46%。
translated by 谷歌翻译
In this paper, we increase the availability and integration of devices in the learning process to enhance the convergence of federated learning (FL) models. To address the issue of having all the data in one location, federated learning, which maintains the ability to learn over decentralized data sets, combines privacy and technology. Until the model converges, the server combines the updated weights obtained from each dataset over a number of rounds. The majority of the literature suggested client selection techniques to accelerate convergence and boost accuracy. However, none of the existing proposals have focused on the flexibility to deploy and select clients as needed, wherever and whenever that may be. Due to the extremely dynamic surroundings, some devices are actually not available to serve as clients in FL, which affects the availability of data for learning and the applicability of the existing solution for client selection. In this paper, we address the aforementioned limitations by introducing an On-Demand-FL, a client deployment approach for FL, offering more volume and heterogeneity of data in the learning process. We make use of the containerization technology such as Docker to build efficient environments using IoT and mobile devices serving as volunteers. Furthermore, Kubernetes is used for orchestration. The Genetic algorithm (GA) is used to solve the multi-objective optimization problem due to its evolutionary strategy. The performed experiments using the Mobile Data Challenge (MDC) dataset and the Localfed framework illustrate the relevance of the proposed approach and the efficiency of the on-the-fly deployment of clients whenever and wherever needed with less discarded rounds and more available data.
translated by 谷歌翻译
作为世界上口语最广泛的语言之一,孟加拉国的使用在社交媒体世界中也在增加。讽刺是一种积极的陈述或言论,其基本的负面动机在当今的社交媒体平台中广泛使用。在过去的许多年中,英语的讽刺检测有了显着改善,但是有关孟加拉讽刺检测的情况仍然没有改变。结果,仍然很难识别孟加拉国中的讽刺,缺乏高质量的数据是主要因素。本文提出了Banglasarc,该数据集是专门为孟加拉文本数据讽刺检测的数据集。该数据集包含5112条评论/状态和从各种在线社交平台(例如Facebook,YouTube)以及一些在线博客中收集的内容。由于孟加拉语中分类评论的数据收集数量有限,因此该数据集将有助于确定讽刺的研究,认识到人们的情绪,检测到各种类型的孟加拉语表达式和其他领域。该数据集可在https://www.kaggle.com/datasets/sakibapon/banglasarc上公开获得。
translated by 谷歌翻译
基于超宽带(UWB)范围的多机器人系统中相对定位的系统最近已成为GNSS贬低环境的强大解决方案。可伸缩性仍然是主要挑战之一,尤其是在临时部署中。最近的解决方案包括系统中不同机器人或节点的主动和被动定位模式的动态分配。随着较大规模的系统的分布越来越多,关键的研究问题出现在此类本地化系统的安全性和可信度领域。本文研究了协作决策过程与分布式分类帐技术的潜在整合。具体而言,我们研究了一种方法,用于在区块链中智能合约中运行UWB角色分配算法的方法。在以前的作品中,我们分别研究了ROS2与HyperLeDger织物区块链的集成,并引入了一种用于基于UWB的本地化的新算法。在本文中,我们通过(i)运行实验扩展了这些工作移动机器人。这使我们能够通过增强的身份和数据访问管理在安全且可信赖的过程中提供相同的功能。我们的结果表明,UWB角色分配对六个自动移动机器人的连续变化空间形成的有效性,同时证明对添加不影响本地化过程的区块链层的潜伏期和计算资源的影响很小。
translated by 谷歌翻译
数据驱动的方法来协助手术室(OR)工作流程分析取决于耗时且收集昂贵的大型策划数据集。另一方面,我们看到最近从监督学习转变为可以从未标记数据集中学习表示的自我监督和/或无监督学习方法。在本文中,我们利用机器人手术中捕获的未标记数据,并提出了一种新颖的方法,以融合单个视频框架或图像的多模式数据。我们将多模式数据视为不同的观点,而不是同一图像或视频框架的不同图像或视频框架的不同增强(或“视图”)作为不同的观点,可以通过聚类以无监督的方式训练模型。我们将我们的方法与其他最新方法进行了比较,结果表明,我们的方法在手术视频活动识别和语义细分方面的表现出色。
translated by 谷歌翻译
近年来,多机器人系统已受到行业和学术界的越来越多的关注。除了需要对相对本地化的准确和强大的估计,对系统的安全性和信任对于实现更广泛的采用至关重要。在本文中,我们提出了一个使用HyperLeDger Fabric在工业应用中进行多机器人协作的框架。我们依靠区块链身份来进行地面和空中机器人的相互作用,并使用智能合约进行协作决策。使用超宽带(UWB)本地化进行自动导航和机器人协作,这扩展了我们以前在基于面料的车队管理方面的工作。我们专注于使用地面机器人和空中机器人检查仓库般的环境,并存储有关区块链中发现的对象的信息。我们衡量添加区块链层,分析交易延迟的影响,并将与区块链相关过程的资源利用与已经运行的数据处理模块进行比较。
translated by 谷歌翻译
在本文中,我们解决了在高分辨率上运行的神经网络质量中降解的问题。覆盖网络通常无法在高于其培训集的分辨率下产生全球连贯的结构。尽管图像分辨率增加,但这部分归因于持续静态场。尽管在介入之前降低图像会产生连贯的结构,但它固有地缺乏更高分辨率的细节。为了获得两全其美,我们通过最大程度地减少推断时多尺度的一致性损失来优化网络的中间功能。此运行时优化改善了覆盖效果,并为高分辨率介绍建立了新的最先进。代码可在以下网址获得:https://github.com/geomagical/lama-with-refiner/tree/refinement。
translated by 谷歌翻译
手术视频中的活动识别是开发下一代设备和工作流程监测系统的关键研究领域。由于手术是具有高度变化长度的较长过程,因此用于手术视频的深度学习模型通常包括使用主链和时间序列模型的两阶段设置。在本文中,我们研究了许多最新的骨干和时间模型,以找到为手术活动识别提供最强性能的体系结构。我们首先在大规模活动识别数据集上进行模型性能,该数据集包含在多个临床手术室中捕获的800多个手术视频。我们进一步评估了两个较小的公共数据集(Cholec80和Cataract-101数据集)上的模型,分别包含80个视频和101个视频。我们从经验上发现,Swin-Transformer+BigRU时间模型在两个数据集上都产生了强劲的性能。最后,我们通过对新医院进行微调模型来研究模型对新领域的适应性,并试验最近无监督的域适应方法。
translated by 谷歌翻译
在工业应用中,对系统的安全和信任是广泛采用的要求。区块链技术已成为解决身份管理并保护数据聚合和控制的潜在解决方案。但是,迄今为止的绝大多数作品都利用以太坊和智能合约,这些合同不可扩展或适合工业应用。据我们所知,本文介绍了ROS 2与Hyperledger织物区块链的首次集成。通过通过GO应用程序利用面料智能合约和ROS 2的框架,我们深入研究了使用区块链控制机器人,收集和处理其数据的潜力。我们证明了拟议框架对库存管理用例的适用性,其中使用不同的机器人检测给定区域中感兴趣的对象。旨在满足分布式机器人系统的要求,我们表明机器人的性能不会受到区块链层的显着影响。同时,我们提供了开发其他应用程序的示例,这些应用程序将面料智能合约与ROS 2集成在一起。我们的结果为在自主机器人系统中进一步采用区块链技术铺平了道路,以构建可信赖的数据共享。
translated by 谷歌翻译
现在,诸如无人机之类的无人机,从捕获和目标检测的各种目的中,从Ariel Imagery等捕获和目标检测的各种目的很大使用。轻松进入这些小的Ariel车辆到公众可能导致严重的安全威胁。例如,可以通过使用无人机在公共公共场合中混合的间谍来监视关键位置。在手中研究提出了一种改进和高效的深度学习自治系统,可以以极大的精度检测和跟踪非常小的无人机。建议的系统由自定义深度学习模型Tiny Yolov3组成,其中一个非常快速的物体检测模型的口味之一,您只能构建并用于检测一次(YOLO)。物体检测算法将有效地检测无人机。与以前的Yolo版本相比,拟议的架构表现出显着更好的性能。在资源使用和时间复杂性方面观察到改进。使用召回和精度分别为93%和91%的测量来测量性能。
translated by 谷歌翻译